為什麼需要談?
AI 成本不只模型費,還有上下文、重試、錯誤返工、人審時間。延遲直接影響用戶體驗與轉化。
白話定義
成本=模型推理費+上下文費+檢索費+人力審核;延遲=檢索+生成+網路+排隊+人審等待。
常見情境
高併發客服(秒回必要)
批次報告(可非同步、以量取勝)
內部工具(秒數容忍度較高)
常見誤解
「省錢就縮模型」→ 可能賠在返工與人審。
「延遲只看模型速度」→ 常卡在檢索與過長上下文。
實用心法
三段式優化:
前置:壓縮上下文(D-N-D 原則)、快取常用片段
中段:小模型做初稿,大模型只接高難或二審
後段:非同步任務排程、批次合併請求
「每答成本」拆帳:算清平均 tokens、重試率、人審時薪,找最大頭優化。
SLA 分層:把需求分成即時/準即時/批次,別用同一標準。
檢核清單
每答平均成本=?重試率=?人審時數=?
延遲 Top-3 瓶頸在檢索/生成/網路哪一段?
有沒有把 FAQ/熱門查詢做快取策略?
小結
先量化,再優化。把大頭問題找出來,動一刀,就有感。